期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于自编码器与集成学习的离群点检测算法
郭一阳, 于炯, 杜旭升, 杨少智, 曹铭
《计算机应用》唯一官方网站    2022, 42 (7): 2078-2087.   DOI: 10.11772/j.issn.1001-9081.2021050743
摘要364)   HTML10)    PDF (2364KB)(188)    收藏

针对基于自编码器的离群点检测算法在中小规模数据集上易过拟合以及传统的基于集成学习的离群点检测算法未对基检测器进行优化选择而导致的检测精度低的问题,提出了一种基于自编码器与集成学习的离群点检测(EAOD)算法。首先,随机改变自编码器的连接结构来生成不同的基检测器,以获取数据对象的离群值和标签离群值;然后,通过最近邻算法计算数据对象之间的欧氏距离,并在对象周围构建局部区域;最后,根据离群值与标签离群值之间的相似度,选择在该区域内检测能力强的基检测器进行组合,组合后的对象离群值作为EAOD算法最终判定的离群值。在实验中,所提算法与自编码器(AE)算法相比,在Cardio数据集上,接受者操作特征曲线下方的面积(AUC)和平均精度(AP)分值分别提高了8.08个百分点和9.17个百分点;所提算法与特征装袋(FB)集成学习算法相比,在Mnist数据集上,运行时间成本降低了21.33%。实验结果表明,在无监督学习下所提算法具有良好的检测性能和检测实时性。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 基于交叉层级数据共享的多任务模型
陈颖, 于炯, 陈嘉颖, 杜旭升
《计算机应用》唯一官方网站    2022, 42 (5): 1447-1454.   DOI: 10.11772/j.issn.1001-9081.2021030516
摘要286)   HTML28)    PDF (1841KB)(105)    收藏

针对多任务学习模型中相关度低的任务之间存在的负迁移现象和信息共享困难问题,提出了一种基于交叉层级数据共享的多任务模型。该模型关注细粒度的知识共享,且能保留浅层共享专家的记忆能力和深层特定任务专家的泛化能力。首先,统一多层级共享专家,以获取复杂相关任务间的公共知识;然后,将共享信息分别迁移到不同层级的特定任务专家之中,从而在上下层之间共享部分公共知识;最后,利用基于数据样本的门控网络自主选择不同任务所需信息,从而减轻样本依赖性对模型的不利影响。相较于多门控混合专家(MMOE)模型,所提模型在UCI census-income数据集上对两个任务的F1值分别提高了7.87个百分点和1.19个百分点;且在MovieLens数据集上的回归任务的均方误差(MSE)值降低到0.004 7,分类任务的AUC值提高到0.642。实验结果表明,所提出的模型适用于改善负迁移现象的影响,且能更高效地学习复杂相关任务之间的公共信息。

图表 | 参考文献 | 相关文章 | 多维度评价
3. 基于图上随机游走的离群点检测算法
杜旭升, 于炯, 叶乐乐, 陈嘉颖
计算机应用    2020, 40 (5): 1322-1328.   DOI: 10.11772/j.issn.1001-9081.2019101708
摘要357)      PDF (1616KB)(391)    收藏

离群点检测算法在网络入侵检测、医疗辅助诊断等领域具有十分广泛的应用。针对LDOF、CBOF及LOF算法在大规模数据集和高维数据集的检测过程中存在的执行时间长及检测率较低的问题,提出了基于图上随机游走(BGRW)的离群点检测算法。首先初始化迭代次数、阻尼因子以及数据集中每个对象的离群值;其次根据对象之间的欧氏距离推导出漫步者在各对象之间的转移概率;然后通过迭代计算得到数据集中每个对象的离群值;最后将数据集中离群值最高的对象判定为离群点并输出。在UCI真实数据集与复杂分布的合成数据集上进行实验,将BGRW算法与LDOF、CBOF和LOF算法在执行时间、检测率和误报率指标上进行对比。实验结果表明,BGRW算法能够有效降低执行时间并在检测率及误报率指标上优于对比算法。

参考文献 | 相关文章 | 多维度评价